获红杉等20亿投资,清华系大模型新星完成首秀
作者丨王非
一家明星大模型公司,完成创业首秀。
10月9日,专注于通用人工智能领域的公司月之暗面(Moonshot Al)宣布在“长文本”领域实现了突破,推出了首个支持输入20万汉字的大模型moonshot,以及搭载该模型的智能助手产品Kimi Chat。
月之暗面由清华大学交叉信息学院、智源青年科学家杨植麟教授领衔,其在过去五年内的NLP领域华人学者引用排名中位居前10,并在40岁以下排名第一;两位联合创始人周昕宇和吴育昕,也均出身清华。团队还成功吸引了来自Google、Meta、Amazon等全球领先科技公司的海外人才加入。
来源:月之暗面
今年2月,大模型热潮初起时,市场就有消息传出:“杨植麟被寄予厚望,由国内最头部的VC提供孵化式支持。”
短短4个月后,成立仅2个月的月之暗面被曝完成首轮融资。对此,创始人杨植麟“更正”道,公司已获得红杉资本、今日资本、砺思资本等知名机构近20亿元投资。目前市场上关于估值的表述是“不准确,且偏低的,后续会通过官方形式正式对外公布。”
杨植麟表示,“目前,团队成员在50人左右。首轮融资及接下来的新一轮融资,都将主要用于技术产品的研发,以及团队扩展上。”
支持20万字超长输入,推动大模型从LLM进入LLLM时代
据杨植麟介绍,公司的名称来源于自己最喜欢的英国摇滚乐队发行的专辑《The Dark Side of The Moon》(月之暗面),今年也正好是该专辑发行50周年。同时,“月之暗面”也寄予了团队想要探索宇宙奥秘,探究代表着高难度月球背面的梦想。
杨植麟表示,月之暗面的创立初衷就是“好奇心,探索未知”;愿景则是“对世界有用,与用户共创”;团队希望AI能够“普惠、个性化”。
* 长文本打开大模型应用的新世界
当前大模型输入长度普遍较低的现状对其技术落地产生了极大制约,例如:目前大火的虚拟角色场景中,由于长文本能力不足,虚拟角色会轻易忘记重要信息,在Character AI的社区中用户就经常抱怨“因为角色在多轮对话后忘记了自己的身份,所以不得不重新开启新的对话”,等这些类似问题。
月之暗面同样观察到了“大模型输入长度受限带来的应用困难”,据杨植麟介绍,针对于此,公司实现了“全球最长,支持20万字超长输入,大模型产品进入长文本时代”。他也在现场,以Kimi Chat的一些实际使用为例,进行了详细介绍。
公众号的长文直接交给Kimi Chat ,让它帮你快速总结分析:
来源:月之暗面
新鲜出炉的英伟达财报,交给Kimi Chat,快速完成关键信息分析:
来源:月之暗面
出差发票太多?全部拖进Kimi Chat,快速整理成需要的信息:
来源:月之暗面
发现了新的算法论文时,Kimi Chat能够直接帮你根据论文复现代码:
来源:月之暗面
只需要一个网址,就可以在Kimi Chat中和自己喜欢的原神角色聊天:
来源:月之暗面
输入整本《月亮与六便士》,让Kimi Chat和你一起阅读,帮助你更好的理解和运用书本中的知识:
来源:月之暗面
通过上述例子,我们可以看到,当模型可以处理的上下文变得更长后,大模型的能力能够覆盖到更多使用场景,真正在人们的工作、生活、学习中发挥作用,而且由于可以直接基于全文理解进行问答和信息处理,大模型生成的“幻觉”问题也可以得到很大程度地解决。
相比当前市面上以英文为基础训练的大模型服务,Kimi Chat具备较强的多语言能力。例如,Kimi Chat在中文上具备显著优势,实际使用效果能够支持约20万汉字的上下文,2.5倍于Anthropic公司的Claude-100k(实测约8万字),8倍于OpenAI公司的GPT-4-32k(实测约2.5万字)。同时,Kimi Chat通过创新的网络结构和工程优化,在千亿参数下实现了无损的长程注意力机制,不依赖于滑动窗口、降采样、小模型等对性能损害较大的“捷径”方案。
目前,月之暗面的智能助手产品Kimi Chat已开放了内测。
* 从LLM进入LLLM时代
杨植麟此前曾表示,无论是文字、语音还是视频,对海量数据的无损压缩可以实现高程度的智能。
无损压缩的进展曾极度依赖「参数为王」模式,该模式下压缩比直接与参数量相关,这极大增加了模型的训练成本和应用门槛,而月之暗面认为:大模型的能力上限(即无损压缩比)是由单步能力和执行的步骤数共同决定的。单步能力与参数量正相关,而执行步骤数即上下文长度。
月之暗面相信,更长的上下文长度可以为大模型应用带来全新的篇章,促使大模型从 LLM时代进入Long LLM (LLLM)时代:
1.每个人都可以拥有一个具备终身记忆的虚拟伴侣,它可以在生命的长河中记住与你交互的所有细节,建立长期的情感连接。
2.每个人都可以拥有一个在工作环境与你共生(co-inhabit)的助手,它知晓公域( 互联网)和私域(企业内部文档)的所有知识,并基于此帮助你完成OKR
3.每个人都可以拥有一个无所不知的学习向导,不仅能够准确地给你提供知识,更能够引导你跨越学科间的壁垒,更加自由地探索与创新。
当然,更长的上下文长度只是月之暗面在下一代大模型技术上迈出的第一步。月之暗面计划凭借该领域的领先技术,加速大模型技术的创新和应用落地。
清华学霸二次创业,曾参与悟道盘古等多个大模型项目
月之暗面能在成立之初就获得头部VC押注,与杨植麟本人的“学霸”身份、丰富经历,关系匪浅。
月之暗面创始人杨植麟 来源:百度百科
早在高中时期,杨植麟就表现优异,他在没有任何编程基础的情况下,被选拔进信息学奥林匹克竞赛培训班,最终顺利通过竞赛保送清华大学。
清华求学时,杨植麟师从清华大学计算机系知识工程实验室(KEG)带头人,智源研究院学术副院长、悟道项目负责人唐杰教授。最终他以满分成绩通过所有程序设计课程,并以年级第一的成绩毕业。
随后在2015年,杨植麟进入卡内基梅隆大学(CMU)语言技术研究所(LTI),跟随苹果公司AI负责人Ruslan Salakhutdinov和Google AI智能首席科学家William W. Cohen攻读博士学位。
毕业后,杨植麟曾效力于谷歌大脑研究院和Meta(Facebook)人工智能研究院,是Transformer-XL和XLNet的第一作者。其中,XLNet模型曾在18项自然语言任务中取得了好于谷歌BERT的效果,是当时NLP领域热门的国际前沿模型之一。
2018年,作为第一作者,杨植麟与图灵奖得主杨乐昆(Yann LeCun)合作发表论文;与图灵奖得主约书亚·本吉奥(Yoshua Bengio)合作发表论文。此外,他还曾与Quoc V. Le(Google Brain创始人之一)、何恺明(Kaiming He)等合写过论文。
据不完全统计,杨植麟曾在ICLR、NeurIPS、ICML、ACL、EMNLP等计算机顶会发表论文20余篇,研究成果累计Google Shcolar引用超过17000。
目前,杨植麟还是清华大学交叉信息研究院的助理教授,研究方向:大规模预训练,自然语言处理,自然语言理解与生成,少样本学习,零样本学习,多模态学习。
现年31岁的杨植麟,在大模型领域,可谓声名显赫:循环智能、智谱AI、智源研究院……到处都有他的名字和身影。
同时,杨植麟和团队也曾作为核心研发成员,参与Google Bard、Gemini、Einstein、盘古、悟道等大模型的研发,发明包括TransformerXL、XLNet、RoPE、Detectron2、Group Normalization在内的AI领域里程碑式的成果,被诸如Google PALM、LLaMa等模型采用。
如今,经验丰富的杨植麟选择自主创业,自然受到各方的紧密关注,以及知名投资方的热情追捧。
天眼查App信息显示,月之暗面由杨植麟持股78.97%,拥有绝对控制权。
来源:天眼查
清华同门组队,成员堪称全明星阵容
围绕在杨植麟身边的月之暗面创业伙伴,同样实力非凡,不容小觑。
月之暗面联合创始人周昕宇持有公司10%股份,他和杨植麟、张宇韬,是清华大学计算机科学与技术系2011级本科的同学。
在大四时,周昕宇就加入各方面都符合他标准的旷视实习,并在毕业之后正式加入,工作内容是算法量产,就是要把算法的生产效率提高很多倍。
工作期间,他和旷视研究院基础科研负责人张祥雨,携手研究移动端模型,以共同一作的身份撰写《ShuffleNet: An Extremely Efficient Convolutional Neural Network for Mobile Devices》,中标CVPR。ShuffleNet后来影响了包括苹果3D人脸解锁在内的各种手机毫秒级人脸解锁技术。
月之暗面联合创始人周昕宇 来源:清华校友总会
月之暗面联合创始人吴育昕作为持股5.96%的第三大股东,同样来头不小。
吴育昕毕业于清华大学与卡耐基梅隆大学,曾获2018年欧洲计算机视觉会议(ECCV)最佳论文提名。他是Meta(Facebook)员工,系公司人工智能实验室FAIR团队的一员,曾和队员何恺明共同提出了组归一化(Group Normalization,简称 GN)的方法。
在2018年10月的GeekPwn国际安全极客大赛上,IYSWIM是6个参赛团队中,唯一一个破解人脸识别算法的团队。吴育昕当时以IYSWIM团队的身份参赛,据他介绍,“自己(以个人名义报名参赛,有名队友没有来到现场)用了谷歌的FaceNet开源代码模型攻破了该算法”。
来源:将门创投
此外,杨植麟的同门师兄张宇韬,目前持有公司5%股份,最后0.08%股份由汪箴持有。
公开资料显示,张宇韬本硕均在清华大学计算机系就读。他的研究方向是异构数据融合和知识图谱构建,在KDD、CIKM等计算机顶会上发表多篇文章。他作为技术负责人,参与了科技大数据分析平台AMiner的研发。
汪箴则毕业于复旦大学计算机科学系,后就读新加坡南洋理工大学计算机工程系,主要研究工作面向AI在鉴证科学上的应用。此前,他曾在Google担任高级软件工程师/技术主管,开发移动端网页搜索、社交平台等产品。后又担任新加坡AI技术驱动独角兽领创集团(ADVANCE.AI)技术委员会负责人/技术副总裁,还有过投资机构的从业经历。
如果说清华大学撑起了大模型创业的半壁江山,那么唐杰教授更是中坚力量,智谱AI、智源研究院、月之暗面、循环智能,这些公司都与其关系深厚。
谈及与师兄弟甚至师父“同场竞技”,杨植麟表示,“我觉得更多的倒不是竞技,而是大家共同在这个领域作出各自的贡献。因为这里面的空间非常大,很难有一家公司可以把所有的事情都做了,大家的侧重点各有不同。像月之暗面就是聚焦在C端进行尝试,而且每一家公司的技术路线也是不一样的,这里面其实蕴藏着巨大的机会。”
除了技术层面的优势,月之暗面也在产品人才上做足了准备。据杨植麟介绍,团队中有着拥有几亿DAU经验,擅长在C端寻找应用场景的产品人才。而这也是现阶段,月之暗面聚焦C端用户的底气所在。